@苏祺 位通:《数字人文研究的多模态转向》
摘要
数字人文领域正在经历从单一语言中心主义向多模态综合视角的转向,这一转向不仅契合了人类接收与处理信息的自然模式,而且揭示了单模态在解析复杂人文问题时的局限性。
多模态数字人文研究强调文字、图像、声音等多元符号资源在意义构建中的互补与协同作用,通过多模态数据的融合实现对人文问题的多维度、深层次理解。随着自然语言处理、计算机视觉以及多模态大模型等技术的飞速发展,多模态数字人文研究迎来了前所未有的发展机遇。然而,人类文化与人文材料的丰富性与复杂性也为其带来了诸多技术挑战。
数字人文的多模态转向不仅是自身发展的内在趋势,更是对人类文化本质和信息处理模式的必然回应。它标志着数字人文研究正迈向一个更加综合、开放和包容的新阶段,将为人文问题的数字化研究贡献新的视角。
(引言)
- 单模态研究局限性:
- 信息承载量有限,难全面反映研究对象复杂面貌。
- 单一分析手段难跨越模态壁垒,实现多维数据整合解析。
- 剖析复杂社会现象及文化语境时,解释力不足。
- 多模态数字人文研究:
- 核心:运用数字技术全面捕捉、呈现多模态人文知识表达,通过多元证据系统整合,深入挖掘、揭示对人文问题的洞察与理解。
- 目标:推动数字人文向更综合、开放、包容方向发展,适应复杂多元研究需求。
一、多模态理论与知识的多模态性
- 多模态定义: 在交流和意义构建中使用多种符号资源和模式(文字、图像、声音、手势、空间布局等)理解和处理信息。超越语言中心主义。
- **理论 发展:
- 社会符号学: 意义构建是多元符号资源共同作用的结果,超越语言界限,随社会文化环境演变。
- 多模态话语分析 (20 世纪 90 年代): 将话语分析从语言扩展至视觉、听觉等模态,认为多模态话语是人类感知通道在交际中综合使用的结果。
- 模式特性: 每种模式有独特符号资源和规则(文字:词汇、语法;图像:颜色、形状、布局)。模式间融合互补创造复杂意义层次,是多模态分析目标。
- 模态性 (Modality): 表达现实性与真实性程度的认知。视觉模式中通过颜色饱和度、线条清晰度等传达;语言模式中通过词汇选择、语气等呈现。影响信息接收与理解。
- 文本模态:
- 人类最重要信息媒介,表达文化认知核心手段。
- 载体演进:甲骨、器铭、简牍 -> 纸张、电子介质。
- 数字化资源:谷歌图书、社交网络、新闻媒体、OCR 古籍等。
- 人文研究核心对象:从“细读”到“远读”,催生文化组学等大数据文本研究。
- 作用:常作为连接其他模态的桥梁。知识交流本质是多模态的,多模态研究超越语言审视知识,关注各模态间复杂关联。
- 图像模态:
- 广泛使用的信息载体,通过摄影、绘画等二维视觉呈现承载信息与情感。
- 历史角色:前文字时代“以图言说”,记录见闻、所知、所想。
- 学术价值:历史与文化直观见证。“图像证史”(郑樵《通志·图谱略》)、彼得·伯克论图像证据价值、“图像转向”理论推动文化研究向视觉领域发展。
- 与文本关系:语词(时间性媒介)与图像(空间性媒介)相互交织影响(龙迪勇),拓宽时空维度与物态容量。语图互仿、互文丰富叙事,提供多元文化视角。
- 其他视觉模态 (3 D/视频):
- 视频: 生动、多维度,融合视觉与听觉,捕捉文化现象动态过程。
- 3 D 建模: 广泛应用于艺术、建筑史、考古学、文化遗产等 (自 20 世纪 80 年代)。作为知识载体、研究工具、学习材料、表现手段。
- 声音模态:
- 重要文化载体,含言语、非言语(音乐、环境音)。
- 技术影响:录音、广播、流媒体改变文化传播与历史记录。
- 意义核心:声音非次要元素,音调、节奏、音质影响信息传达与理解(查尔斯·伯恩斯坦)。文学场域声音机能与语言交织,带来“在场”体验。
- 当前困境:数字人文学科生态中,资源、基础设施、工具开发集中于文本/视觉,声音研究相对被忽视(结构性问题、版权限制、获取/归档/共享困难)。
二、数字人文与多模态研究
- 多模态理论框架: 为理解数字时代复杂信息交流提供框架。剖析不同模态及其相互作用,揭示单模态忽视的意义维度。对象研究意义在于多模态整合与互动。
- 多模态呈现:
- 多维度呈现方式,多角度阐释理解研究对象。
- 价值: 展示多模态数据在文化遗产数字化呈现潜力,彰显数字人文在文化交流、增强公众认知作用。
- 新的研究视角:
- 数字人文跨学科特性使多模态研究更灵活创新。
- 新的研究方法:
- 多模态知识图谱 (MKG):
- 传统知识图谱多基于文本 (NLP 构建)。GLAM 等领域数据复杂,需综合多模态数据,融合信息建统一知识表示。
- MKG 支持视觉问答 (VQA)、跨模态检索,通过跨模态融合推理揭示深层关联。
- 构建策略:“从符号到图像”(为实体选视觉元素)、“从图像到符号”(图像中识别实体,基于视觉语义关系构建三元组)。
- 多模态社会网络分析 (MSNA):
- 旨在弥合 SNA 与复杂数字环境鸿沟。整合文本、语音、视频揭示依赖关系、群体结构。
- 节点/边构建:借助隐式输入分析(面部表情、语调、身体语言、图片相似度)进行关系推断。
- 技术:计算机音视频特征提取技术自动抽取隐式关系构建网络。
- 意义:丰富 SNA 理论框架实践路径,为理解数字时代社会互动提供新视角。
- 多模态知识图谱 (MKG):
三、多模态技术成为变革性方法
- 现状批判与展望:
- 当前数字人文主要关注文本,面对视听材料“耳聋目盲”(安德里亚斯·费克斯等)。
- 艾伦·刘“堆栈化”视角:语言核心 DH 是基础层,多模态 DH 建立其上发展自身方法。
- (一) 多模态数字化到数据化
- 挑战: 多模态资源构建复杂、成本高,现有数据集更像精选样本。实证化趋势下,需大规模、系统化标注的多模态语料库。
- 核心: 将非结构化多模态数据转为结构化数据,释放计算机分析潜力。标注是实现数据结构化、从数字化向数据化转变的核心通道。
- 标注工具示例:
- 文本: MARKUS, Voyant Tools, 吾与点.
- 图像: IIIF 标准(展示、操作)。Labelme(边界框、标签), VGG Image Annotator (VIA)(多种类型标注), 格图智能标注平台(手动/智能标注,图文关联)。图像标注提取细粒度知识。
- 视频: 更复杂(跟踪变化对象)。ELAN(手工多层标注,用于话语分析、手语研究等)。SAT 语义注释工具(结合拉班动作分析、光流跟踪、神经网络识别语音/对象等,时间戳注释)。
- 3 D 数据: 表示立体形状结构位置。用于文保、考古、艺术史等。模型:点云、体素、多边形网格。工具:Agata (XML 标注), LabelMe 3 D, Cloud Compare (点云处理)。
- 集成化平台 (尚处起步): Label Studio (开源,同步标注管理多种模态), Prodigy (NLP 核心,可扩展至图像音频), MAP 多模态分析平台 (集成框架模型,自动采集标注在线媒体数据), 图形叙事标记语言/注释工具 (用于漫画、图像小说语料库)。
- 标注困境: 无论手工或自动,人工参与保障质量不可或缺,但工作量大、成本高。需探索创新模式(游戏化、众包)缓解,完善基础设施。
- (二) 多模态技术
- 目标: 融合不同模态数据信息,提升系统对复杂场景理解处理能力。
- 融合挑战: 不同模态数据属性特征差异大(形式、内容、时间维度)。关键是如何以及何时整合。
- 融合范式: 后期融合(决策级)、早期融合(特征级)。
- 多模态大模型 (MMLM):
- 通过大量多模态数据预训练学习捕捉模态间语义联系。
- 能力:多模态内容分类、智能检索推荐、视觉问答 (VQA)、多模态内容生成。已涌现众多开源闭源模型。
- 数字人文面临挑战:
- 开发更精确、能约束协调不同模态的表示方法。
- 实现跨模态信息精准对齐。
- 发展更先进推理机制。
- 优化生成模型确保质量多样性。
- 增强跨模态知识迁移能力。
- 关键技术领域:
- 多模态表示学习: 构建统一表示框架(嵌入技术转为向量),缩小异质性差距。
- 多模态对齐: 不同模态数据在共同语义空间匹配,确保语义一致。
- 多模态推理: 综合多种感知模态信息深入分析作综合判断,提升准确性全面性、适应性鲁棒性。
- 多模态协同学习: 利用各模态互补性信息,通过协同学习增强模型性能泛化能力。
- 语义鸿沟: 计算机算法理解多模态信息与人类感官存在差距。人类擅长运用知识解读情境、溯因推理。算法缺乏动态适应推理能力。计算机科学假设意义可直接提取,多模态理论认为感知需与符号系统关联。
- 突破需求: 若无突破,难触及约翰娜·德鲁克“视觉认识论”图文交织图景,更难探索含听觉触觉等多元认识论的广阔文化空间。无法全面捕捉展现文化丰富性。
- 未来方向: 关注技术进步(更智能、领域适应性算法)+ 加强跨学科研究(多模态文化、符号学、认知科学等),理解人类构建解读多模态信息方式及其文化社会联系。持续推动技术创新与人文领域融合研究至关重要。
四、结语
- 对文本依赖的批判: 当前数字人文在认识论、理论框架上过度依赖文本(列夫·马诺维奇)。
- 数值型数据表示(CV、音频、GIS)能更精确描述人文数据,更贴近感官编码方式。
- 数字、函数和数据可视化构成了一种独特的语言系统,能够描述和呈现渐进过程或连续的时间流动,这是自然语言体系难以全面和精准表达的内容。
- 机遇与挑战:
- 机遇: 更丰富研究素材工具,拓宽研究视域。
- 挑战: 对研究者提出更高要求(掌握多种技术、有效整合数据)。
- 关键挑战总结:
- 数据异质性: 管理分析更复杂。需先进算法工具实现标准化融合。要求跨学科知识技能构建分析框架方法论。
- 计算资源: 需云计算、大数据平台、高性能计算。依赖先进存储大数据处理技术。
- 数据共享: 重要引擎。多模态数据采集复杂成本高,私有性限制应用研究。需在保护隐私伦理前提下推动开放共享,构建丰富数据生态,促知识创新合作。需有效联邦学习方案、共享机制打破数据孤岛,优化全球资源配置利用。